查看原文
其他

最新!斯坦福 多模态医疗模型:Med-Flamingo,支持Few-shot问答,模型开源!

ShuYini AINLPer 2024-04-23

点击上方AINLPer,设为星标
更多干货,第一时间送达

引言

 就医学而言,它涉及各个方面知识,需要整合各种信息。医学生成视觉语言模型(VLM)朝这个方向迈出了第一步,并有望带来更多的临床应用。然而,现有模型通常需要基于大量的下游数据集进行微调,这对于医学领域来说是一个相当大的限制。因为在许多医疗应用中数据稀缺,所以需要模型能够从Few-shot进行学习。

Paper:https://arxiv.org/pdf/2307.15189.pdf

Code:https://github.com/snap-stanford/med-flamingo

 为此,斯坦福提出了Med-Flamingo,一种适用于医学领域的多模态少样本学习器。该学习器基于OpenFlamingo-9B,对出版物和教科书中成对和交错的医学图像-文本数据进行预训练,解锁了Med-Flamingo小样本生成医学视觉问答(VQA)能力,实验结果显示Med-Flamingo在临床医生的评分中将生成医学VQA的性能提高了20%

背景介绍

 面对大量的任务,大型预训练模型(或基础模型)通过仅提供一些带标签的示例作为上下文就能表现出了卓越的能力。这也被称为上下文学习(In-Context Learning)。该模型可以在提示期间从一些提供的示例中学习任务,而无需调整模型参数。对于医疗领域来说,它具有巨大的潜力,可以极大地扩展现有医疗人工智能模型的功能。最值得注意的是,它将使医疗人工智能模型能够以统一的方式处理临床医生每天面临的各种罕见病例,并提供相关的理由来证明其判断的合理性。

「由于医疗数据固有的复杂性和多模态性以及要解决的任务的多样性,在医疗环境中实现上下文学习能力是非常具有挑战性的」。现有的医疗VLM,通常是在上下文中带有单个图像的配对图像文本数据上进行训练,而不是与多个图像交织的更一般的文本流。因此,这些模型的设计和测试并不是为了通过少量示例执行多模式上下文学习。为此本文提出了Med-Flamingo,这是第一个可以执行专门针对医学领域的多模式上下文学习的医学基础模型。

Med-Flamingo

 Med-Flamingo是一种基于Flamingo的视觉语言模型,它可以自然地摄取具有交错模态(图像和文本)的数据,以生成基于这种多模态输入的文本。Flamingo是首批展示情境学习和小样本学习能力的视觉语言模型之一,在该模型的成功基础上,Med-Flamingo通过对跨医学学科的多模态知识源进行预训练,将这些功能扩展到医学领域 。Med-Flamingo模型介绍和主要研究如下图所示: 首先,在Med-Flamingo模型训练之前,「构建了一个独特的、交错的图像文本数据集」,该数据集源自超过4K的医学教科书的广泛收集。鉴于医疗领域准确性和精确度的关键性质,训练数据的质量、可靠性和来源可以在很大程度上影响结果。因此,为了确保医学事实的准确性,本文利用权威的医学知识精制定的数据集,并没有依赖于网络上不可信的数据。

 其次,由于现有的医学VQA数据集主要集中在放射学和病理学专业之间的图像解释,本文创建了Visual USMLE,这是一个具有挑战性的生成VQA数据集,涵盖跨专业的复杂USMLE式问题。基于两个现有的医学VQA数据集(VQA-RAD、PathVQA)和本文创建的数据集。「对模型进行Few-Shot问答生成」

 最后,我们与临床医生进行了一项「人类评分者研究」,以在给定图像、问题和正确答案的背景下对各代人进行评分。人类评估是通过专用应用程序进行的,并产生临床评估分数,作为我们的主要评估指标。

 在实验中,通过直接生成开放式答案来评估Med-Flamingo在生成医学视觉问答 (VQA) 任务中的表现,而不是像基于CLIP的医学视觉语言模型那样事后对人工答案选项进行评分。为此,本文设计了一个新的评估协议来衡量模型代的临床实用性。除此之外,研究团队与临床专家进行了深入的评估研究,得出了作为主要指标的人体评估分数。

实验结果

 对三个生成医学VQA数据集进行平均,few-shot提示Med-Flamingo在临床评估得分中取得了最佳平均排名(排名为 1.67,最佳先验模型为 2.33),表明该模型生成了临床医生最喜欢的答案,与之前的型号相比,性能提升高达 20%。其中:「VQA-RAD数据集」上的对比结果如上图所示。可以发现BERT-sim可能无法完全捕获细粒度的医疗细节。Exact-match鲁棒性不好并很保守。「PathVQA数据集」上的对比结果如上图所示。在所有模型中,该数据集在所有评估数据集中显示出最低的临床表现。这凸显了跨模型病理学的性能缺陷,并表明以前基于分类的指标严重高估了该专业中普通医学VLM的性能。「Visual USMLE数据集」上的对比结果如上图所示。其中由于正确答案相当长,Exact-match指标没有提供任何信息,因为它在此数据集上始终为0。

 此外,Med-Flamingo 能够执行医学推理,例如回答复杂的医学问题(例如基于视觉的 USMLE 式问题)并提供解释(即基本原理),这是其他多模式医学基础模型之前未展示的功能。然而,值得注意的是,Med-Flamingo 的性能可能会受到训练数据的可用性和多样性以及某些医疗任务的复杂性的限制。尽管存在这些限制,本文工作也代表了多模态医学基础模型的开发及其在医学领域,执行多模态上下文学习的能力方面向前迈出了重要一步。

推荐阅读

[1]最新学术进展!2023年7月份,爆款论文总结!

[2]纯货!最全Prompt工程方法总结(超全)

[3]一项关于Transformer参数设置的深度研究

[4]ACL2023|知识图谱(KG)检索新框架--DiFaR

[5]实验结果表明:代码自修复能力仅存在GPT-4!

[6]Goat-7B干翻GPT-4,超PaLM-540B!24G可训练

点击下方链接🔗关注我们

「资料整理不易,点个再看吧」
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存